Probabilidade e Estatística: A Ciência da Incerteza: Definindo Relacionamentos por meio de Distribuições Condicionais

Bem-vindo a uma mudança de paradigma na estatística. Estamos indo além da intuição simples de "linhas de tendência" para um Quadro Distribucional. Aqui, definimos um relacionamento não apenas pelo coeficiente de correlação, mas como qualquer mudança no comportamento probabilístico de uma variável resposta $Y$ quando o preditor $X$ é alterado.

Definição 10.1.1: A Ligação Estatística

Duas variáveis $X$ e $Y$ são consideradas relacionadas se houver qualquer mudança na distribuição condicional de $Y$, dado $X = x$, à medida que $x$ muda. Por outro lado, um estado de "sem relação" é matematicamente equivalente à independência entre $X$ e $Y$.

Equivalência Lógica

As variáveis $X$ e $Y$ são independentes se, e somente se, $f(y|x) = f(y)$ para todos os valores de $x$. Isso implica que a função de frequência relativa conjunta pode ser fatorada como:

$$f(x, y) = f(x)f(y)$$

Portanto, testar uma relação é fundamentalmente um teste de Independência.

Mecanismos de Mudança

Um relacionamento é identificado por qualquer deslocamento na função de densidade condicional (como mostrado na Figura 10.1.1). Isso inclui:

Deslocamento da Média: O valor esperado $E(Y|X)$ muda (o foco mais comum).
Deslocamento da Variância: A dispersão ou incerteza de $Y$ depende de $X$ (heterocedasticidade).
Mudança na Forma: A distribuição geral se transforma (por exemplo, de simétrica para assimétrica).

Estabelecendo Causalidade por meio do Design

Uma relação estatística não implica causalidade. Para afirmar que $X causa $Y$, devemos levar em conta as variáveis de confusão por meio do Design dos Experimentos:

Tratamentos de Controle: Fornece uma base de comparação.
Efeito Placebo: Mitigação da melhoria percebida por meio de tratamentos inativos.
Cegueira: Usando experimentos cegos (receptores inconscientes) e experimentos duplamente cegos (receptores e pesquisadores inconscientes) para eliminar viés.
Bloqueio: Como visto em Exemplo 10.1.7, usamos variáveis de bloqueio ($W$, como fertilidade do solo) para garantir que a relação entre o tipo de trigo ($X$) e o rendimento ($Y$) não seja confundida por condições pré-existentes.

🎯 Estimação Matemática Central

Estimamos essas ligações usando Verossimilhança Condicional funções. Para dados discretos com contagens $f_{ij}$:

$$L = \prod_{i=1}^a \prod_{j=1}^b (\theta_{j|X=i})^{f_{ij}}$$ Erro Padrão: $SE = \sqrt{\frac{\hat{\theta}_{ij}(1 - \hat{\theta}_{ij})}{n}}$

QUESTÃO 1

De acordo com a Definição 10.1.1, o que deve acontecer para que $X$ e $Y$ sejam considerados relacionados?

O coeficiente de correlação entre $X$ e $Y$ deve ser exatamente 1.

A distribuição condicional de $Y$ dado $X=x$ deve mudar de alguma forma à medida que $x$ muda.

$X$ e $Y$ devem ter uma relação funcional $Y = g(X)$ onde $g$ é linear.

$X$ e $Y$ devem ser independentes.

QUESTÃO 2

Suponha que $Y$ tenha distribuição condicional dada $X$ especificada por $N(1 + 2x, |x|)$ quando $X = x$. $X$ e $Y$ são relacionados?

Sim, porque a média ($1+2x$) e a variância ($|x|$) mudam ambas à medida que $x$ muda.

Não, porque $N$ é sempre uma distribuição normal.

Apenas se $x$ for um número inteiro positivo.

Não, porque são independentes.

QUESTÃO 3

Em um ensaio clínico, qual é o propósito de um experimento 'duplamente cego'?

Garantir que o tamanho da amostra seja dobrado para melhorar o poder do teste.

Evitar que tanto os sujeitos quanto os pesquisadores saibam quem recebeu o tratamento ou o placebo.

Certificar-se de que apenas duas doses diferentes sejam testadas.

Satisfazer os requisitos de uma função de verossimilhança multinomial.

QUESTÃO 4

Por que a abordagem funcional $Y = g(X)$ é frequentemente insuficiente para aplicações estatísticas práticas?

Porque funções matemáticas não podem ser usadas na estatística.

Porque relações do mundo real envolvem incerteza estocástica ou fatores não observados que $g(x)$ não captura.

Porque $g(X)$ sempre exige que $X$ seja uma variável categórica.

Porque funções de verossimilhança só funcionam para variáveis independentes.

QUESTÃO 5

Suponha que $X$ tome os valores 1 e 2, e as distribuições condicionais de $Y$ dado $X$ sejam $N(0, 5)$ quando $X = 1$, e $N(0, 7)$ quando $X = 2$. $X$ e $Y$ têm uma relação?

Não, porque a média é 0 em ambos os casos.

Sim, porque a variância (a dispersão) de $Y$ muda de 5 para 7.

Não, porque uma relação exige uma mudança no valor esperado.

Apenas se $Y$ for uma variável discreta.